pdf转word

2023-04-08 12:36| 来源: 网络整理| 查看: 265

就一般使用者的理解，pdf可以分为两种，一种是图片版pdf，一种是文字版pdf。图片版pdf，比较典型的是通过扫描得到的pdf文件，特点是每张pdf就是一张图片，上面的文字信息是不可直接复制的，如下图。

文字版pdf，一般是由word、indesign等图文排版编辑软件生成的，特点是pdf页面非常清晰，文本可以直接复制，并粘贴到word中。可以直接复制的表现为，可以使用文本工具直接在pdf选取文本。如下图。

我们拿到一份pdf，不仅是看，而且往往是想获得其中的内容的。能够直接复制的文本型pdf当然是最容易获得文本信息的，但有时候仍会碰到这样的情况：在pdf文件中选取文本，粘贴到其他软件，如word中时，却出现了乱码。下面列举我遇到的两次这样的情况，以供参考。

情况一

文本在pdf中呈现得很清晰，很正常。但当用文本工具选取时，却没有出现正常的浅蓝底色的选中状态，出现的是浅蓝色不整齐的下划线的状态。粘贴到word里，显示都是非常奇怪的毫无关联的字符，且是行数明显多于原文本。直接转换为word也是这样的。

情况二

这是一段俄文。文本在pdf中呈现得很清晰，很正常。用文本工具选取时，出现正常的浅蓝底色的选中状态。粘贴到word里，显示的却几乎都是方框，有一些英文字母和数字是正确的。直接转换为word也是这样的。你可能会认为是字体的问题，但是更换了几种支持俄文的字体后，情况仍然没有变化。应该不是字体的问题。

pdf文本粘贴出来后文本乱码的问题，其本质应该是文字符号编码的问题。在Louis Tong非常专业的回答中有一些详细说明，链接如下

了解文字编码的人应该可以很好地理解并解决这个问题，不过肯定是需要掌握一些比较专业的知识。对于普通的图文工作者来说，这是很难办到的。

所以遇到这种情况，最简单粗暴的方法仍然是使用OCR软件进行识别，就像对待图片型pdf一样。因为这种pdf都很清晰，所以OCR识别也可以得到令人满意的结果。

OCR是指光学字符识别技术，比较著名的软件有ABBYY FineReader。

【本文地址】

公司简介

联系我们